全新合成框架SOTA:强化学习当引擎,任务合成当燃料 实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。 学习 推理 燃料 sota 框架sota 2025-10-01 18:35 6